8.5 통합된 표현 학습: ImageBind와 그 너머 (Unified Representation Learning) 8.5 통합된 표현 학습: ImageBind와 그 너머 (Unified Representation Learning) 8.5.1 공동 임베딩 공간(Joint Embedding Space): 텍스트, 이미지, 오디오, 깊이(Depth), 열화상(Thermal), IMU를 하나의 벡터 공간으로 정렬 8.5.2 Cross-Modal Retrieval: 하나의 감각 데이터로 누락된 다른 감각 정보를 추론하거나 검색하는 기술 8.5.3 Any-to-Any Generation: 멀티모달 입력에 기반한 로봇 행동 생성의 기초